Les nouvelles architectures de LLM : mixture of experts et au-delà

Qu’est-ce qu’un LLM, et pourquoi son architecture compte-t-elle ?

Depuis l’explosion de ChatGPT fin 2022, les grands modèles de langage — ou LLM pour Large Language Models — sont entrés dans le quotidien de millions de personnes. Mais derrière cette interface conversationnelle apparemment simple se cache une ingénierie colossale, en perpétuelle évolution. Longtemps dominée par une architecture dite transformer dense, la recherche en intelligence artificielle explore aujourd’hui des voies radicalement nouvelles pour rendre ces modèles plus puissants, plus rapides et surtout moins gourmands en énergie. En France, plusieurs acteurs — à commencer par Mistral AI — sont au cœur de cette révolution architecturale. Comprendre ces nouvelles structures, c’est comprendre où va l’IA générative dans les prochaines années.

Le modèle dense : efficace, mais coûteux

Pour saisir l’intérêt des nouvelles architectures, il faut d’abord comprendre le fonctionnement d’un transformer classique. Dans un modèle dit dense, chaque token — chaque petit morceau de texte traité par le modèle — active la totalité des paramètres du réseau de neurones. Un modèle de 70 milliards de paramètres mobilise donc, pour chaque mot généré, l’intégralité de ces 70 milliards de connexions. Le résultat est impressionnant, mais le coût de calcul est astronomique : en termes de puissance GPU, d’électricité consommée, et donc de coût financier. C’est précisément ce goulot d’étranglement que les nouvelles architectures cherchent à contourner. L’enjeu n’est pas seulement économique : il est aussi écologique, et la France, engagée dans une transition énergétique ambitieuse, est particulièrement sensible à cette dimension.

La mixture of experts : n’activer que ce dont on a besoin

La Mixture of Experts (MoE) est sans doute l’innovation architecturale la plus discutée en ce moment dans la communauté IA. Le principe est élégant : plutôt que d’activer l’ensemble du réseau pour chaque token, le modèle est divisé en plusieurs sous-réseaux spécialisés, appelés « experts ». Un mécanisme de routage — lui-même appris par le modèle — décide, pour chaque token, quels experts solliciter. En pratique, seule une fraction des paramètres totaux est activée à chaque inférence. On parle de modèles sparse, par opposition aux modèles dense.

Mistral AI, la pépite française fondée en 2023 par d’anciens chercheurs de DeepMind et Meta, a été l’une des premières à démocratiser cette approche avec son modèle Mixtral 8x7B, sorti fin 2023. Ce modèle embarque huit experts, mais n’en active que deux à la fois pour chaque token. Résultat : une puissance de raisonnement comparable à des modèles bien plus lourds, pour une fraction du coût computationnel. Mixtral a rapidement été salué par la communauté internationale comme une démonstration que l’Europe pouvait rivaliser avec les géants américains et chinois sur le plan de l’innovation fondamentale. Depuis, Mistral a poursuivi sur cette lancée avec Mixtral 8x22B, puis des architectures encore plus affinées.

Au-delà de la MoE : les pistes qui émergent en 2025

Si la Mixture of Experts concentre l’essentiel de l’attention médiatique, d’autres directions architecturales se développent en parallèle, et des chercheurs français y contribuent activement.

Les architectures hybrides attention/SSM combinent les mécanismes d’attention classiques des transformers avec des modèles à espaces d’états (State Space Models), comme Mamba. Ces approches permettent de traiter des contextes très longs — des dizaines, voire des centaines de milliers de tokens — sans que le coût de calcul explose quadratiquement, comme c’est le cas dans un transformer standard. Pour des usages comme l’analyse de documents juridiques ou médicaux complets, c’est un avantage considérable. Le laboratoire INRIA et plusieurs équipes de l’École Normale Supérieure travaillent sur des variantes de ces modèles adaptées aux contraintes européennes en matière de souveraineté des données.

Les modèles multimodaux natifs constituent une autre frontière. Plutôt que de greffer une capacité de traitement d’images ou de sons sur un LLM textuel existant, ces modèles sont conçus dès le départ pour traiter plusieurs modalités simultanément. Cela change fondamentalement la façon dont les représentations internes sont organisées. Des startups françaises comme Kyutai — à l’origine du modèle vocal Moshi — explorent cette voie avec une approche open-source, cohérente avec les valeurs de transparence défendues par une partie de l’écosystème IA français.

Les architectures à mémoire externe cherchent quant à elles à séparer la mémoire de travail du modèle de sa mémoire à long terme. Plutôt que de tout « comprimer » dans les poids du réseau lors de l’entraînement, ces approches — souvent désignées sous le terme de Retrieval-Augmented Generation (RAG) enrichi — permettent au modèle de consulter dynamiquement des bases de connaissances externes. C’est une piste particulièrement explorée pour des applications métier en France, notamment dans les secteurs bancaire et juridique, où la mise à jour des connaissances doit être fréquente et traçable.

Les implications pour la souveraineté numérique française

Ces évolutions architecturales ne sont pas neutres sur le plan géopolitique. L’un des arguments les plus souvent avancés pour justifier l’investissement public dans la recherche en IA — comme en témoigne le plan France 2030 et les annonces récentes autour du supercalculateur Jean Zay renforcé — est précisément la nécessité de maîtriser les fondements technologiques, et pas seulement les applications. Un pays qui ne comprend pas comment fonctionnent les architectures de ses modèles est condamné à dépendre des choix techniques — et éthiques — d’acteurs étrangers.

En mai 2025, lors du sommet de l’IA organisé à Paris, plusieurs voix ont insisté sur l’importance de financer non seulement l’entraînement de modèles souverains, mais aussi la recherche fondamentale sur de nouvelles architectures. L’idée est claire : si la prochaine rupture architecturale majeure — après la MoE — est découverte dans un laboratoire français, cela changera durablement l’équilibre des forces dans ce secteur. Des institutions comme le CNRS, CentraleSupélec ou Sorbonne Université maintiennent des équipes de recherche actives sur ces sujets, souvent en lien étroit avec Mistral AI ou des partenaires industriels européens.

Ce que ça change concrètement pour les utilisateurs

Pour l’utilisateur final, ces évolutions architecturales se traduisent par des bénéfices tangibles, même si le mécanisme sous-jacent reste invisible. Des modèles plus rapides à l’inférence, des coûts d’utilisation en baisse, une capacité à traiter des documents plus longs, une meilleure spécialisation sur des domaines métier précis : voilà ce que promettent les nouvelles générations de LLM. En France, où l’adoption professionnelle de l’IA générative s’accélère dans des secteurs aussi variés que la santé, l’éducation ou l’industrie, cette course à l’efficacité architecturale n’est pas un débat d’experts en vase clos. C’est, très concrètement, ce qui déterminera quels outils seront accessibles à une PME bretonne ou à un médecin généraliste en zone rurale d’ici deux ou trois ans. La Mixture of Experts n’est donc pas qu’un concept de recherche : c’est potentiellement un levier de démocratisation de l’IA, à condition que les acteurs qui la maîtrisent choisissent de construire des services accessibles et souverains.